(Utilisation de la similarité sémantique pour l'extraction de lexiques bilingues à partir de corpus comparables) [in French]
نویسندگان
چکیده
This paper presents a new method that aims to improve the results of the standard approach used for bilingual lexicon extraction from specialized comparable corpora. We attempt to solve the problem of context vector word polysemy. Instead of using all the entries of the dictionary to translate a context vector, we only use the words of the lexicon that are more likely to give the best characterization of context vectors in the target language. On two specialised French-English comparable corpora, empirical experimental results show that our method improves the results obtained by the standard approach especially when many words are ambiguous. MOTS-CLÉS : lexique bilingue, corpus comparable spécialisé, désambiguïsation sémantique, WordNet.
منابع مشابه
Bilingual Lexicon Extraction from Comparable Corpora by Combining Contextual Representations (Extraction de lexiques bilingues à partir de corpus comparables par combinaison de représentations contextuelles) [in French]
RÉSUMÉ La caractérisation du contexte des mots constitue le cœur de la plupart des méthodes d’extraction de lexiques bilingues à partir de corpus comparables. Dans cet article, nous revisitons dans un premier temps les deux principales stratégies de représentation contextuelle, à savoir celle par fenêtre ou sac de mots et celle par relations de dépendances syntaxiques. Dans un second temps, nou...
متن کاملExtraction de lexiques bilingues à partir de corpus comparables spécialisés : étude du contexte lexical
This work focuses on the concept of lexical context that is central to the historical approach of bilingual lexicon extraction from specialized comparable corpora. First, we revisit the two main strategies dedicated to lexical context characterization, that rely on the use of window-based and syntactic-based representations. We show that the combination of these two representations has a partic...
متن کاملExploitation de l'asymétrie entre termes pour l'extraction automatique de taxonomies à partir de textes
Résumé. Nous présentons dans cet article une nouvelle approche pour la génération automatique de structures lexicales (ou taxonomies) à partir de textes. Cette tâche est fondée sur l’hypothèse forte selon laquelle l’accumulation de faits statistiques simples sur les usages en corpus permet d’approximer des informations de niveau sémantique sur le lexique. Nous utilisons la prétopologie comme ca...
متن کاملMultilingual Compound Splitting (Segmentation Multilingue des Mots Composés) [in French]
Résumé La composition est un phénomène fréquent dans plusieurs langues, surtout dans des langues ayant une morphologie riche. Le traitement des mots composés est un défi pour les systèmes de TAL car pour la plupart, ils ne sont pas présents dans les lexiques. Dans cet article, nous présentons une méthode de segmentation des composés qui combine des caractéristiques indépendantes de la langue (m...
متن کاملUn critère de cohésion thématique fondé sur un graphe de cooccurrences (Topical Cohesion using Graph Random Walks) [in French]
RÉSUMÉ Dans cet article, nous définissons un nouveau critère de cohésion thématique permettant de pondérer les termes d’un lexique thématique en fonction de leur pertinence. Le critère s’inspire des approches Web as corpus pour accumuler des connaissances exogènes sur un lexique. Ces connaissances sont ensuite modélisées sous forme de graphe et un algorithme de marche aléatoire est appliqué pou...
متن کامل